搜索关键字：spark 大数据 hadoop hive parquet，搜索到33788个结果！码迷,mamicode.com！

记Hive SQL中TEMPORARY VIEW的一个数据对不上的坑

问题背景: (无关操作已省略) Spark ETL执行以下SQL： CREATE TEMPORARY VIEW A select user_id, ...; CREATE TEMPORARY VIEW B select user_id, ... from A ...; INSERT OVERWRIT ...

分类：数据库时间：2020-12-29 11:28:30 阅读次数：0

hadoop介绍-架构

hadoop1.X架构架构模型分布式文件系统核心模块: namenode:集群中的主节点,管理元数据(文件的大小,文件的位置,文件的权限)。 secondaryNameNode:辅助namenode管理元数据信息。 dadanode:集群当中的从节点,主要存储集群中的各种数据。分布式数据计算核 ...

分类：其他好文时间：2020-12-28 11:29:22 阅读次数：0

HIVE UDF

1、MAVEN依赖  <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec< ...

分类：其他好文时间：2020-12-28 11:17:44 阅读次数：0

Hive中的UDF详解

hive作为一个sql查询引擎，自带了一些基本的函数，比如count(计数)，sum(求和)，有时候这些基本函数满足不了我们的需求，这时候就要写hive hdf(user defined funation)，又叫用户自定义函数。 UDF 创建与使用步骤继承org.apache.hadoop.hiv ...

分类：其他好文时间：2020-12-25 13:07:42 阅读次数：0

MySql大数据量查询limit与order by配合缓慢

大数据量在MySQL中查询分页排序，数据量就会很大我们可以把limit与order by拆分为两个步骤先根据条件把limit、ordey by相关的数据的索引查出来，然后再根据索引查询具体的字段信息（也就是两层嵌套）例： select id, user_name, id, user_name ...

分类：数据库时间：2020-12-25 13:04:20 阅读次数：0

大表数据过滤查询很慢

一、问题描述查询的语句类似如下： select * from table_name where xxx='yyy' limit 10; 当前的hive表存储格式是orc格式，执行引擎是tez，并行度也已经调整到几十了，但是在执行这个sql的时候，发现一直卡住，执行不成功。二、问题现象 and 分 ...

分类：其他好文时间：2020-12-25 13:03:17 阅读次数：0

win10+centos7+hadoop 集群环境搭建

一. 前期准备 1. Vmware workstation pro 16 官网下载 : https://www.vmware.com/ 密钥：ZF3R0-FHED2-M80TY-8QYGC-NPKYF （若失效请自行百度） 2. xshell,xftp 官网下载（需要注册） 3. 国内镜像网站下载c ...

分类：Windows程序时间：2020-12-25 12:00:06 阅读次数：0

想自学成为一个Web开发者，离不开这几本免费的经典书籍

程序员书库（ID：OpenSourceTop）编译链接：https://medium.com/web-development-zone/top-free-ebooks-for-web-designers-web-developers-f8c6a70465adWeb设计和开发是当下非常热门的一块领域，但是技术发展速度也是日新月异，为了和最新技术保持同步，开发人员需要不断提高自己的技能水平，让自己成为

分类：Web程序时间：2020-12-24 12:21:01 阅读次数：0

Dubbo多协议支持

1.dubbo 协议 (默认) 1、采用单一长连接和NIO异步通讯，适合于小数据量大并发的服务调用，以及服务消费者机器数远大于服务提供者机器数的情况 2、不适合传送大数据量的服务，比如传文件，传视频等，除非请求量很低。用场景：常规远程服务方法调用特性连接个数：单连接连接方式：长连接传输协议 ...

分类：其他好文时间：2020-12-23 12:18:52 阅读次数：0

c#使用Confluent.Kafka实现生产者发送消息至kafka（远程连接kafka发送消息超时的解决 Local：Message timed out）

最近项目上因为遇到数据量过大导致查询统计性能问题（oracle数据库、单表每月1亿多条车辆定位记录，由一个windows环境下的链路服务程序来接收车辆上传的定位数据写入oracle），急需使用大数据架构来解决。前期同事已经提出整体解决思路（修改链路服务程序，在写oracle的基础上同时写入kafka ...

分类：Windows程序时间：2020-12-23 12:15:11 阅读次数：0

共33788条上一页 1 ... 37 38 39 40 41 ... 3379 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)