一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 选择1.Hadoop平台应用, 淘宝双11数据分析与预测 理由:比较有兴趣 二、实践方案 步骤零:实验环境准备 查看实验指南 步骤一:本地数据集上传到数据仓库Hive 查看实验指南 步骤二:Hive数据分析 查看实验指南 步骤三 ...
分类:
其他好文 时间:
2020-06-23 17:11:36
阅读次数:
53
感谢分享:http://blog.sina.com.cn/s/blog_7e04e0d00102w140.html 采集程序是使用hive -f xx.hql> xx.out,在使用sqoop将数据导入关系型数据库。 最近赶上大数据平台升级,忽然之间跑的好好的任务忽然报错说类型转换错误。 结果经查询 ...
分类:
其他好文 时间:
2020-06-23 15:54:30
阅读次数:
73
Hive llap服务安装说明及测试 参考:https://www.cnblogs.com/hdpdriver/p/7642729.html 1.简介说明 从Hive 2.0引入了LLAP(Live Long And Process),2.1进行了比较大的优化,可以说hive已经走向了内存计算, 目 ...
分类:
其他好文 时间:
2020-06-23 15:26:38
阅读次数:
174
常规的: 1、过早的过滤字段、只选用需要的列、要加分区 2、join 小表放左边 set hive.exec.reducers.max=200; set mapred.reduce.tasks= 200; 增大Reduce个数 set hive.groupby.mapaggr.checkinterv ...
分类:
数据库 时间:
2020-06-22 15:34:57
阅读次数:
75
1. 查看文件编码格式 file -i filename 其中 charset=iso-8859-1 就是ansi的文件格式 如何转化为 UTF-8 iconv -f ansi -t utf8 xxxx.csv -o xxxx2.csv 转化后就变为正常显示. 可用于导HIVE前文件格式的转换 ...
分类:
系统相关 时间:
2020-06-22 13:09:10
阅读次数:
102
一、环境信息 CentOS Linux release 8.1.1911 (Core) Redis server v=5.0.3 二、yum方式安装 1、添加EPEL仓库 sudo yum install epel-release 2、更新 sudo dnf update 3、使用 CentOS 8 ...
分类:
数据库 时间:
2020-06-22 12:41:55
阅读次数:
65
Hive数据查询详解 一、数据准备 为了演示查询操作,这里需要预先创建三张表,并加载测试数据。 数据文件 emp.txt 和 dept.txt 可以从本仓库的resources 目录下载。 1.1 员工表 -- 建表语句 CREATE TABLE emp( empno INT, -- 员工表编号 e ...
分类:
其他好文 时间:
2020-06-22 01:58:21
阅读次数:
87
数据来源层 数据库 日志 视频,ppt 数据传输层 Sqoop数据传递 Flume日志收集 kafka消息队列 数据存储层 HDFS文件存储 HBase非关系型数据库 kafka(存储少量数据) 资源管理层 YARN资源管理 数据计算层 MapReduce离线计算 Hive数据查询 Mahout数据 ...
分类:
其他好文 时间:
2020-06-22 00:56:04
阅读次数:
83
探索性数据分析——Profiling 可以快速预览数据 导入包: import pandas as pd import pandas_profiling 导入数据: data=pd.read_csv("model.csv") 或者hive_query 输出报告: pandas_profiling.P ...
分类:
其他好文 时间:
2020-06-21 23:21:42
阅读次数:
41
语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN) 1.row_number() over()排序功能 分组排序: 已有表 E E E 9 C E A 5 B B E 8 D D C 6 E A B 6 C B D 10 C E C 4 ...
分类:
编程语言 时间:
2020-06-21 17:53:04
阅读次数:
89