搜索关键字：sparksql hivecontext，搜索到324个结果！码迷,mamicode.com！

Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南

Spark版本：1.6.2 概览Spark SQL用于处理结构化数据，与Spark RDD API不同，它提供更多关于数据结构信息和计算任务运行信息的接口，Spark SQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFrames API、Datasets API与Spark SQL进行交互，无论使用何种方式，SparkSQL使用统一的执行引擎记性处理。...

分类：数据库时间：2016-07-21 13:00:22 阅读次数：524

sparkSQL随笔

sparkSQL 1、主要的数据结构 DataFreames 2、开始使用：SQLContext 创建步骤： Val sc:sparkContext Val sqlContext=new org.apache.spark.sql.SQLContext(sc) Import sqlContext.im ...

分类：数据库时间：2016-07-09 23:45:18 阅读次数：211

大数据Spark企业级项目实战(实战sparksql和kafka的流数据处理应用)下载

链接:http://pan.baidu.com/s/1dFqbD4l 密码:treq 1.课程研发环境项目源代码以spark1.5.2，jdk8,scala2.10.5为基准。开发工具:SCALA IDE eclipse; 其他工具:shell脚本2.内容简介本教程从最基础的Spark介绍开始 ...

分类：数据库时间：2016-07-08 13:36:57 阅读次数：171

企业级大数据处理方案-01

企业级大数据处理方案有三种业务场景： 1.离线处理；（mapreduce（第一代）、sparksql（第二代）） 2.实时处理；（数据库操作、storm） 3.准实时处理。（spark Streaming） mapreduce与spark对比 mr与spark优缺点对比：（一） a.mapreduc ...

分类：其他好文时间：2016-07-05 10:10:17 阅读次数：119

sparksql---通过pyspark实现

上次在spark的一个群里面，众大神议论：dataset会取代rdd么？大神1：听说之后的mlib都会用dataset来实现，呜呜，rdd要狗带大神2：dataset主要是用来实现sql的，跟mlib没多大关系，你们说为什么要用dataset呢？大神3：因为老板喜欢。在市场上找一个会写sql ...

分类：数据库时间：2016-07-01 13:14:51 阅读次数：503

spark集成hivecontext配置

spark版本：spark-1.6.0-bin-hadoop2.6hive版本：hive 1.2.11.hive-site.xml<property> <name>hive.metastore.uris</name> <value>thrift://master:9083</value></prop ...

分类：其他好文时间：2016-06-29 12:57:36 阅读次数：249

Spark SQL on HIVE

1. SPARK CONF中添加hive-site.xml hive.metastore.uris thrift://master:9083 2. 启动hive元数据 hive --metastore >meta.log 2>&1 & 3. scala>val hiveContext = new o ...

分类：数据库时间：2016-06-05 13:56:52 阅读次数：249

spark-1.6.1安装编译&&sparksql操作hive

maven：3.3.9jdk:javaversion"1.8.0_51"spark:spark-1.6.1.tgzscala:2.11.7如果scala版本是2.11.x，执行如下脚本./dev/change-scala-version.sh2.11spark默认情况下用scala的2.10.5编译编译命令如下：mvn-Pyarn-Phadoop-2.6-Dhadoop.version=2.6.0-Phive-Phive-thriftserver-Ds..

分类：数据库时间：2016-05-31 10:43:09 阅读次数：1194

day63-Spark SQL下Parquet内幕深度解密

ＤＴ大数据梦工厂联系方式：新浪微博：www.weibo.com/ilovepains/微信公众号：DT_Spark博客：http://.blog.sina.com.cn/ilovepains一：sparkSQL 下的Parquet意义再思考存储空间包括：内存和磁盘，计算方面如果说HDFS是大数据时代分布式文件系统存储的事实标准的话，parquet则是整个大数据时代文件存储格式的事实标准。1、速度...

分类：数据库时间：2016-05-13 02:00:33 阅读次数：275

day61-Spark SQL数据加载和保存内幕深度解密实战

Spark SQL加载数据 SparkSQl 数据输入输入输出主要是DataFrame，DataFrame提供了一些通用的load和save操作。通过load可以创建出DataFrame；通过save可以将DataFrame数据保存到文件中或者说以具体的格式来指明要读取的文件是什么格式或者输出的数据是什么格式；直接读取文件的指定类型： SQLContext源码： load 和sa...

分类：数据库时间：2016-05-13 01:11:30 阅读次数：350

共324条上一页 1 ... 23 24 25 26 27 ... 33 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)