码迷,mamicode.com
首页 >  
搜索关键字:sparksql spark编译    ( 344个结果
用SparkSQL构建用户画像
一、 前言 大数据时代已经到来,企业迫切希望从已经积累的数据中分析出有价值的东西,而用户行为的分析尤为重要。利用大数据来分析用户的行为与消费习惯,可以预测商品的发展的趋势,提高产品质量,同时提高用户满意度。 二、 初识用户画像 右边是一个人的基本属性,通过一个人的基本属性我们可以了解到这个人的基本信 ...
分类:数据库   时间:2018-11-24 23:51:22    阅读次数:246
Scala构建元数据
反射方式构建元数据: 通过反射来获取RDD中的Schema信息。这种方式适合于列名(元数据)已知的情况下 步骤: 1.SparkConf配置环境 2.SparkContext初始化上下文 3.SQLContext初始化SparkSQL上下文 4.创建一个普通的RDD(sc.textFile) 5.使 ...
分类:其他好文   时间:2018-11-24 14:21:32    阅读次数:210
瞄一眼,带你走进SparkSQL的世界
欢迎访问网易云社区,了解更多网易技术产品运营经验。 最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式 ...
分类:数据库   时间:2018-11-21 15:36:51    阅读次数:212
Spark SQL join的三种实现方式
引言 join是SQL中的常用操作,良好的表结构能够将数据分散到不同的表中,使其符合某种规范(mysql三大范式),可以最大程度的减少数据冗余,更新容错等,而建立表和表之间关系的最佳方式就是join操作。 对于Spark来说有3种Join的实现,每种Join对应的不同的应用场景(SparkSQL自动 ...
分类:数据库   时间:2018-11-05 20:56:05    阅读次数:1389
ide-dtwave指南(数栖平台)
hive建表字段的时间格式建议使用timestamp或string,date类型会出现异常,比如load文件时时间会变为null sparksql才支持load数据到hive表中,hive2竟然不支持? 补数据有自依赖,多天时可以等前一天运行完再运行后一天,但是补下游不行,会导致多天并行,原因是补下 ...
分类:其他好文   时间:2018-11-02 13:01:42    阅读次数:1315
Hive安装与简单使用并集成SparkSQL
## Hive环境搭建1. hive下载:http://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gzwget http://archive-primary.cloudera.com/cdh5/cdh/5/hive ...
分类:数据库   时间:2018-10-31 11:22:40    阅读次数:179
sparkSQL flinkSQL hiveSQL性能对比
最近在研究flink,发现较新版的flink支持sql,这下好了,我用spark两年了,对用法和性能算是踩过一些坑了。 听说flink挺快的,那么flinkSQL和sparkSQL到底哪个快呢? 想必很多人也想知道吧,那就拿数据说话(虽然不是自己做的基线测试,但好歹也找了好久) 下图是hive, s ...
分类:数据库   时间:2018-10-30 19:28:12    阅读次数:429
Apache spark2.1.0编译hadoop-2.6-cdh5.11.2的对应版本
Apache spark2.1.0 编译 hadoop-2.6-cdh5.11.2 的对应版本 搞了两天,终于把spark编译成功了,把编译过程记录一下 编译失败的坑: 1)linux内存不足,maven编译过程中内存溢出 2)找不到cloudera仓库 3)报各种错误 考虑到maven下载可能会被 ...
分类:Web程序   时间:2018-10-23 14:25:08    阅读次数:432
SparkSql处理嵌套json数据
一、数据准备: 代码示例: 二、数据准备 代码示例: ...
分类:数据库   时间:2018-10-19 19:48:57    阅读次数:592
sparksql错误报No such file or director
今天在非hadoop用户使用sparksql处理 这个句型遇到以下的错误。 修复方式: 将 操作系统 上的/tmp/hadoop hadoop的可写权限赋给nonhadoop用户,安全的方法是将用户加到相应的组,测试环境可以直接使用 权限配置。 ...
分类:数据库   时间:2018-10-18 00:49:29    阅读次数:732
344条   上一页 1 ... 11 12 13 14 15 ... 35 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!