一、概述 将数据以parquet模式写入到hive的分区表中时,底层源码有个错误,在进行分割字段判断时,没有引用已传入字符,多了一个“=”;该错误在hive的client中也会碰到 错误原因是底层分割符引用错误, 二、解决方法 从https://github.com/apache/parquet-m ...
分类:
其他好文 时间:
2020-07-13 21:24:30
阅读次数:
75
数据算法 Hadoop Spark大数据处理技巧 ...
分类:
编程语言 时间:
2020-07-13 18:11:22
阅读次数:
80
tophua/spark-machine-learning-book Spark机器学习书代码 25 Jupyter Notebook Updated on 22 Dec 2017 zengxiaosen/eshop 电商+大数据+spark机器学习 11 Java Updated on 5 Dec ...
分类:
其他好文 时间:
2020-07-13 18:02:05
阅读次数:
74
水平有限,本文仅以流水账的方式 介绍自己 安装 三款软件 的过程。 环境Ubuntu on 虚拟机: $ cat /proc/version Linux version 4.15.0-54-generic (buildd@lgw01-amd64-014) (gcc version 7.4.0 \(U ...
分类:
其他好文 时间:
2020-07-13 13:14:44
阅读次数:
63
Hive是个啥? 用类似sql语句实现对分布式存储系统的数据读写、管理功能。 HIVE特点 1.使用类sql语句分析大数据,避免MapReduce程序分析数据 2.数据存储在HDFS上,不是HIVE上 3.Hive将数据映射成数据库和一张张表,库和表的元数据信息一般存在关系型数据库。 元数据:描述数 ...
分类:
其他好文 时间:
2020-07-13 12:07:13
阅读次数:
73
CDH中hive报端口被占用,经排查并进行以下操作后恢复正常。 通过查看hive日志可用发现10000端口已经被占用,通过命令行可用查找出被占用端口的相应进程;将被占用端口的进程删掉(kill 187393)后,重启hive即恢复正常 ...
分类:
其他好文 时间:
2020-07-13 11:17:25
阅读次数:
62
容器是一种清理级、可移植、自包含的软件打包技术,使应用程序可以在几乎任何地方以相同的方式运行。 ...
分类:
其他好文 时间:
2020-07-13 09:43:45
阅读次数:
68
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. 出现这个问题的原因是我们在windows上模拟开发环境,但并没有真正的搭建hadoop和spark 解决办法: ...
1. 非压缩 archive_command = 'cp %p /appdata/pgsql/pg_wal/%f && echo %f >> /appdata/pgsql/pg_wal/archive.list' restore_command = 'cp /appdata/pgsql/pg_wal ...
分类:
数据库 时间:
2020-07-11 10:04:36
阅读次数:
146
Hive数据仓库 Facebook由hive和Hadoop组建 hive由facebook开发的 存储HDFS,查询MapReduce 优势 解决了传统关系型数据库在大数据处理上的瓶颈。适合大数据批量处理 充分利用集群的CPU计算资源,存储资源,实现并行计算 Hive支持标准的SQL语法,免去了编写 ...
分类:
其他好文 时间:
2020-07-10 19:33:44
阅读次数:
77