码迷,mamicode.com
首页 >  
搜索关键字:sparksql spark编译    ( 344个结果
Spark SQL metaData配置到Mysql
构造以spark为核心的数据仓库: 0.说明 在大数据领域,hive作为老牌的数据仓库比较流行,spark可以考虑兼容hive。但是如果不想用hive做数据仓库也无妨,大不了我们用spark建立最新的数据仓库。 sparkSQL的发展历程表明了,spark本身就可以做数据仓库,而不需要hive。sp ...
分类:数据库   时间:2018-06-22 22:44:43    阅读次数:268
Spark SQL数据源
SparkSQL数据源:从各种数据源创建DataFrame 因为 spark sql,dataframe,datasets 都是共用 spark sql 这个库的,三者共享同样的代码优化,生成以及执行流程,所以 sql,dataframe,datasets 的入口都是 sqlContext。 可用于 ...
分类:数据库   时间:2018-06-15 20:06:26    阅读次数:189
spark编译安装 spark 2.1.0 hadoop2.6.0-cdh5.7.0
1、准备: centos 6.5 jdk 1.7 Java SE安装包下载地址:http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html maven3.3.9 ...
分类:其他好文   时间:2018-06-15 20:04:09    阅读次数:372
SparkSQL大数据实战:揭开Join的神秘面纱
本文来自 网易云社区 。 Join操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的Join操作,本文从原理层面介绍了SparkSQL支持的常见Join算法及其适用场景。 Join背景介绍 Join是数据库查询永远绕不开的话题,传统查询SQL技术总体可以分为简单操作(过滤操作-wher ...
分类:数据库   时间:2018-06-01 15:32:57    阅读次数:189
Spark学习之路 (二十三)SparkStreaming的官方文档
一、SparkCore、SparkSQL和SparkStreaming的类似之处 二、SparkStreaming的运行流程 2.1 图解说明 2.2 文字解说 1、我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个Application,开启一个Driver,然 ...
分类:其他好文   时间:2018-05-16 19:49:37    阅读次数:151
【sparkSQL】DataFrame的常用操作
以上是我们常用的dataframe的基础操作 具体见一下博客 https://blog.csdn.net/dabokele/article/details/52802150 SparkSQL官网 http://spark.apache.org/docs/1.6.2/api/scala/index.h ...
分类:数据库   时间:2018-05-16 13:17:24    阅读次数:160
【sparkSQL】创建DataFrame
toDF()创建、createDataFrame()创建以及读取文件创建 ...
分类:数据库   时间:2018-05-15 14:01:21    阅读次数:205
瞄一眼,带你走进SparkSQL的世界
本文由 网易云 发布。 作者:范欣欣(本篇文章仅限知乎内部分享,如需转载,请取得作者同意授权。) 最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比 ...
分类:数据库   时间:2018-05-07 19:47:09    阅读次数:251
大数据与人工智能
?机器学习——逻辑回归 ALS音乐推荐(上) Deep Learning(深度学习)学习笔记之系列(一) 深度学习(Deep Learning)资料大全(不断更新) SparkSQL—用之惜之 Spark系列1:开篇之组件云集 HDFS架构及原理 大数据家族成员概述 ...
分类:其他好文   时间:2018-05-06 14:46:31    阅读次数:165
个推 Spark实践教你绕过开发那些“坑”
Spark作为一个开源数据处理框架,它在数据计算过程中把中间数据直接缓存到内存里,能大大地提高处理速度,特别是复杂的迭代计算。Spark主要包括SparkSQL,SparkStreaming,SparkMLLib以及图计算。Spark核心概念简介1、RDD即弹性分布式数据集,通过RDD可以执行各种算子实现数据处理和计算。比如用Spark做统计词频,即拿到一串文字进行WordCount,可以把这个文
分类:其他好文   时间:2018-04-26 14:54:19    阅读次数:174
344条   上一页 1 ... 14 15 16 17 18 ... 35 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!