接上一篇kafka环境搭建完成后,进入测试阶段,首先试一下最基本的生产与消费者。 1、创建topic,使用 kafka-topics.sh 创建 topic test bin/kafka-topics.sh --create --zookeeper localhost:2181 --replicat ...
分类:
其他好文 时间:
2020-04-14 19:05:32
阅读次数:
118
1 4.6.1 分区表基本操作 2 1.引入分区表(需要根据日期对日志进行管理) 3 /user/hive/warehouse/log_partition/20170702/20170702.log 4 /user/hive/warehouse/log_partition/20170703/2017 ...
分类:
其他好文 时间:
2020-04-13 22:23:13
阅读次数:
56
区别: 1、map是对rdd中每一个元素进行操作 2、mapPartitions是对rdd中每个partition的迭代器进行操作 mapPartitions优点: 1、若是普通map,比如一个partition中有一万条数据,那么function要执行一万次,而使用mapPartions,一个ta ...
分类:
移动开发 时间:
2020-04-12 20:49:23
阅读次数:
80
"题目链接" 描述 给定一个链表和一个特定值 x,对链表进行分隔,使得所有小于 x 的节点都在大于或等于 x 的节点之前。 你应当保留两个分区中每个节点的初始相对位置。 示例: 思路 按意思来就可以了,熟悉对链表的操作,没什么难度 代码 ...
分类:
其他好文 时间:
2020-04-12 18:36:03
阅读次数:
61
题目链接:kth-largest-element-in-an-array 方法1: 使用快速排序。 1、对数组进行partition,从left到right随机选择一个主元pivot,将pivot与left的元素交换位置。 另索引 j 初始为left,扫描从left + 1到right的元素,若小于 ...
分类:
编程语言 时间:
2020-04-11 20:20:18
阅读次数:
73
题目描述 给定一个链表和一个特定值 x,对链表进行分隔,使得所有小于 x 的节点都在大于或等于 x 的节点之前。 你应当保留两个分区中每个节点的初始相对位置。 示例: 题目链接: https://leetcode cn.com/problems/partition list/ 思路 x会将链表分割成 ...
分类:
其他好文 时间:
2020-04-10 21:16:33
阅读次数:
69
共性: 1、都是spark平台下的分布式弹性数据集 2、都有惰性机制,创建、转换如map操作时不会立即执行,遇到foreach等Action算子时才开始运算。 3、都会自动缓存计算 4、都有partition概念 区别: 1、RDD不支持sparkSQL操作 2、DF每一行类型固定为Row,只有通过 ...
分类:
其他好文 时间:
2020-04-08 21:03:30
阅读次数:
292
一致性的重要性 分布式领域CAP理论告诉我们,任何一个分布式系统都无法同时满足Consistency(一致性),Availability(可用性), Partition tolerance(分区容错性) 这三个基本需求。最多只能满足其中两项。 但是,一个分布式系统无论在CAP三者之间如何权衡,都无法 ...
分类:
其他好文 时间:
2020-04-08 19:01:42
阅读次数:
54
此博客链接:https://www.cnblogs.com/ping2yingshi/p/12656345.html 将数组分成和相等的三个部分(43min) 题目链接:https://leetcode-cn.com/problems/partition-array-into-three-parts ...
分类:
编程语言 时间:
2020-04-07 22:29:58
阅读次数:
124
数据仓库建设中的数据抽取环节,常常需要增量抽取业务库数据。但业务库数据不是一层不变的,会根据时间发生状态变更,那么就需要同步更新变化数据到HIVE中。过去在Oracle上做数据仓库时,可以使用merge的方法合并新老数据。但hive中没有该功能,本文旨在通过sqoop抽取后,自动实现数据合并。 表设 ...
分类:
数据库 时间:
2020-04-07 18:32:57
阅读次数:
99