码迷,mamicode.com
首页 >  
搜索关键字:spark 大数据 hadoop hive parquet    ( 33788个结果
记Hive SQL中TEMPORARY VIEW的一个数据对不上的坑
问题背景: (无关操作已省略) Spark ETL执行以下SQL: CREATE TEMPORARY VIEW A select user_id, ...; CREATE TEMPORARY VIEW B select user_id, ... from A ...; INSERT OVERWRIT ...
分类:数据库   时间:2020-12-29 11:28:30    阅读次数:0
hadoop介绍-架构
hadoop1.X架构 架构模型 分布式文件系统核心模块: namenode:集群中的主节点,管理元数据(文件的大小,文件的位置,文件的权限)。 secondaryNameNode:辅助namenode管理元数据信息。 dadanode:集群当中的从节点,主要存储集群中的各种数据。 分布式数据计算核 ...
分类:其他好文   时间:2020-12-28 11:29:22    阅读次数:0
HIVE UDF
1、MAVEN依赖 <!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec --> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec< ...
分类:其他好文   时间:2020-12-28 11:17:44    阅读次数:0
Hive中的UDF详解
hive作为一个sql查询引擎,自带了一些基本的函数,比如count(计数),sum(求和),有时候这些基本函数满足不了我们的需求,这时候就要写hive hdf(user defined funation),又叫用户自定义函数。 UDF 创建与使用步骤 继承org.apache.hadoop.hiv ...
分类:其他好文   时间:2020-12-25 13:07:42    阅读次数:0
MySql大数据量查询limit与order by配合缓慢
大数据量在MySQL中查询分页排序,数据量就会很大 我们可以把limit与order by拆分为两个步骤 先根据条件 把limit、ordey by相关的数据的索引查出来,然后再根据索引查询具体的字段信息(也就是两层嵌套) 例: select id, user_name, id, user_name ...
分类:数据库   时间:2020-12-25 13:04:20    阅读次数:0
大表数据过滤查询很慢
一、问题描述 查询的语句类似如下: select * from table_name where xxx='yyy' limit 10; 当前的hive表存储格式是orc格式,执行引擎是tez,并行度也已经调整到几十了,但是在执行这个sql的时候,发现一直卡住,执行不成功。 二、问题现象 and 分 ...
分类:其他好文   时间:2020-12-25 13:03:17    阅读次数:0
win10+centos7+hadoop 集群环境搭建
一. 前期准备 1. Vmware workstation pro 16 官网下载 : https://www.vmware.com/ 密钥:ZF3R0-FHED2-M80TY-8QYGC-NPKYF (若失效请自行百度) 2. xshell,xftp 官网下载(需要注册) 3. 国内镜像网站下载c ...
分类:Windows程序   时间:2020-12-25 12:00:06    阅读次数:0
想自学成为一个Web开发者,离不开这几本免费的经典书籍
程序员书库(ID:OpenSourceTop)编译链接:https://medium.com/web-development-zone/top-free-ebooks-for-web-designers-web-developers-f8c6a70465adWeb设计和开发是当下非常热门的一块领域,但是技术发展速度也是日新月异,为了和最新技术保持同步,开发人员需要不断提高自己的技能水平,让自己成为
分类:Web程序   时间:2020-12-24 12:21:01    阅读次数:0
Dubbo多协议支持
1.dubbo 协议 (默认) 1、采用单一长连接和NIO异步通讯,适合于小数据量大并发的服务调用,以及服务消费者机器数远大于服务提供者机器数的情况 2、不适合传送大数据量的服务,比如传文件,传视频等,除非请求量很低。 用场景:常规远程服务方法调用 特性 连接个数:单连接 连接方式:长连接 传输协议 ...
分类:其他好文   时间:2020-12-23 12:18:52    阅读次数:0
c#使用Confluent.Kafka实现生产者发送消息至kafka(远程连接kafka发送消息超时的解决 Local:Message timed out)
最近项目上因为遇到数据量过大导致查询统计性能问题(oracle数据库、单表每月1亿多条车辆定位记录,由一个windows环境下的链路服务程序来接收车辆上传的定位数据写入oracle),急需使用大数据架构来解决。前期同事已经提出整体解决思路(修改链路服务程序,在写oracle的基础上同时写入kafka ...
分类:Windows程序   时间:2020-12-23 12:15:11    阅读次数:0
33788条   上一页 1 ... 37 38 39 40 41 ... 3379 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!