(一)RDD、DataFream、DataSet 理解 1. RDD理解 (1) RDD定义为弹性分布式数据集合。 MR运算之间数据共享差: MR的计算之间的数据共享只能通过将数据写入外部存储系统。后一步计算需要从外部存储系统中加载进来的方式进行。 Spark 思路相反,设计了一种抽象-RDD(弹性 ...
分类:
其他好文 时间:
2020-11-10 10:31:29
阅读次数:
3
在hive的日常使用中,经常需要将hive表中的数据导出来,虽然hive提供了多种导出方式,但是面对不同的数据量、不同的需求,如果随意就使用某种导出方式,可能会导致导出时间过长,导出的结果不满足需求,甚至造成集群资源不必要的浪费。因此本文主要对hive支持的几种导出方式的使用进行整理,并给出每种导出 ...
分类:
其他好文 时间:
2020-11-07 17:31:45
阅读次数:
24
经典教程|基于SparkGraphX实现微博二度关系推荐导读:图计算是近几年大数据领域非常受关注的热点,社交网络中的好友关系推荐是一种典型图计算场景,本文是微博关系项目团队在二度关系计算中的一些实践,供高可用架构读者参考,作者为王舜、蒋生武、田瑞林。关系计算问题描述二度关系是指用户与用户通过关注者为桥梁发现到的关注者之间的关系。目前微博通过二度关系实现了潜在用户的推荐。用户的一度关系包含了关注、好
分类:
其他好文 时间:
2020-11-07 17:07:30
阅读次数:
27
机器学习平台痛点与模型提升方法:基于Spark的机器学习平台在点融网风控应用介绍编者按:大数据和机器学习是近年来快速增长的热门领域,各个领域的数据量和数据规模都以惊人的速度增长。本文是近期举行的架构实践日点融网刘利就“机器学习平台在点融网业务的应用介绍”这一话题的精彩分享。作者简介:刘利,点融网DataScientistTeam负责人,从事互联网数据分析和数据挖掘近十年。现任点融网DataScie
分类:
其他好文 时间:
2020-11-07 15:58:21
阅读次数:
20
关于概念的东西,其实官网说的很全,对于个人理解就是,flink、spark等等大数据处理平台就是把原来需要我们自己实现的功能,全部框架封装好,像是跨机器的大规模计算、内存/cpu等等资源管理、状态管理(锁还有恢复机制等等)框架全部封装好了,作为开发来说就只需要关心自己要实现的业务就可以了以下内容来自官网,从3个方面介绍Flink:架构ApacheFlink是一个框架和分布式处理引擎,用于在无边界和
分类:
其他好文 时间:
2020-11-06 02:27:17
阅读次数:
21
基本概念部分,批处理和流处理的区别批处理在大数据世界有着悠久的历史,比较典型的就是spark。批处理主要操作大容量静态数据集,并在计算过程完成后返回结果。批处理模式中使用的数据集通常符合下列特征:(1)有界:批处理数据集代表数据的有限集合(2)持久:数据通常始终存储在某种类型的持久存储位置中(3)大量:批处理操作通常是处理极为海量数据集的唯一方法批处理非常适合需要访问全套记录才能完成的计算工作。例
分类:
其他好文 时间:
2020-11-06 02:26:18
阅读次数:
29
Spark2.4新特性概述导读:Spark官方于今年11月份新发布了Spark2.4。那么新版本的Spark都有哪些值得了解的新特性?应对大数据领域的诸多方案,Spark目前是什么样的状况?未来会有怎样的规划?来自ApacheSparkPMC的大牛为我们讲述Spark的进击与挑战。11月23~24日,GIAC全球互联网架构大会将于上海举行。GIAC是高可用架构技术社区推出的面向架构师、技术负责人及
分类:
其他好文 时间:
2020-11-06 00:53:40
阅读次数:
19
-- 查询具体表的分区目录 select t1.NAME, t2.TBL_NAME,t4.PART_NAME, t3.LOCATION from DBS t1, TBLS t2 , SDS t3 ,PARTITIONSt4 where t1.DB_ID=t2.DB_ID and t4.SD_ID = ...
分类:
其他好文 时间:
2020-11-01 21:29:48
阅读次数:
24
小伙伴们好,俗话说:工欲善其事必先利其器,hive是我们与大数据打交道的工具,所以我们需要熟练使用hive的一些函数,这样后面的数据测试就得心应手啦。
分类:
其他好文 时间:
2020-11-01 21:12:19
阅读次数:
17
如果说大数据里面hive是屠龙刀,那么pandas则是倚天剑,**帮助我们对数据数据挖掘、数据分析、数据清洗**
分类:
其他好文 时间:
2020-11-01 21:11:55
阅读次数:
20