简介 spark SQL官网:http://spark.apache.org/docs/latest/sql-programming-guide.html sparkSQL是构建在sparkCore之上的组件,用于处理结构化的数据。它将数据抽象为DataFrame并提供丰富的API,并且sparkS ...
分类:
数据库 时间:
2018-12-09 22:36:38
阅读次数:
189
1.pom文件 <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>${scala.version}</version> </dependency> <depen ...
分类:
数据库 时间:
2018-12-08 15:49:31
阅读次数:
157
首先 使用scala 写的 创建模式类 确定scheme e盘文件 q 1 1.1q 3 2.1f 4 44.1 ...
分类:
数据库 时间:
2018-11-26 20:06:37
阅读次数:
335
一、 前言 大数据时代已经到来,企业迫切希望从已经积累的数据中分析出有价值的东西,而用户行为的分析尤为重要。利用大数据来分析用户的行为与消费习惯,可以预测商品的发展的趋势,提高产品质量,同时提高用户满意度。 二、 初识用户画像 右边是一个人的基本属性,通过一个人的基本属性我们可以了解到这个人的基本信 ...
分类:
数据库 时间:
2018-11-24 23:51:22
阅读次数:
246
反射方式构建元数据: 通过反射来获取RDD中的Schema信息。这种方式适合于列名(元数据)已知的情况下 步骤: 1.SparkConf配置环境 2.SparkContext初始化上下文 3.SQLContext初始化SparkSQL上下文 4.创建一个普通的RDD(sc.textFile) 5.使 ...
分类:
其他好文 时间:
2018-11-24 14:21:32
阅读次数:
210
欢迎访问网易云社区,了解更多网易技术产品运营经验。 最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式 ...
分类:
数据库 时间:
2018-11-21 15:36:51
阅读次数:
212
引言 join是SQL中的常用操作,良好的表结构能够将数据分散到不同的表中,使其符合某种规范(mysql三大范式),可以最大程度的减少数据冗余,更新容错等,而建立表和表之间关系的最佳方式就是join操作。 对于Spark来说有3种Join的实现,每种Join对应的不同的应用场景(SparkSQL自动 ...
分类:
数据库 时间:
2018-11-05 20:56:05
阅读次数:
1389
hive建表字段的时间格式建议使用timestamp或string,date类型会出现异常,比如load文件时时间会变为null sparksql才支持load数据到hive表中,hive2竟然不支持? 补数据有自依赖,多天时可以等前一天运行完再运行后一天,但是补下游不行,会导致多天并行,原因是补下 ...
分类:
其他好文 时间:
2018-11-02 13:01:42
阅读次数:
1315
## Hive环境搭建1. hive下载:http://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gzwget http://archive-primary.cloudera.com/cdh5/cdh/5/hive ...
分类:
数据库 时间:
2018-10-31 11:22:40
阅读次数:
179