搜索关键字：sparksql，搜索到306个结果！码迷,mamicode.com！

Spark 1.4.1中Beeline使用的gc overhead limit exceeded

最近使用SparkSQL做数据的打平操作，就是把多个表的数据经过关联操作导入到一个表中，这样数据查询的过程中就不需要在多个表中查询了，在数据量大的情况下，这样大大提高了查询效率。我启动了thriftserver,然后通过beeline去连接thriftserver，打平操作进行的很顺利，但是在执行...

分类：其他好文时间：2015-08-09 00:24:31 阅读次数：329

倾情大奉送--Spark入门实战系列

这一两年Spark技术很火，自己也凑热闹，反复的试验、研究，有痛苦万分也有欣喜若狂，抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍，从Spark的简介、编译、部署，再到编程模型、运行架构，最后介绍其组件SparkSQL、Spark Streaming、Spark MLi...

分类：其他好文时间：2015-08-03 18:23:27 阅读次数：170

实战Spark分布式SQL引擎

Spark SQL除了使用spark-sql命令进入交互式执行环境之外，还能够使用JDBC/ODBC或命令行接口进行分布式查询，在这个模式下，终端用户或应用可以直接和Spark SQL进行交互式SQL查询而不需要写任何scala代码。...

分类：数据库时间：2015-06-25 09:06:40 阅读次数：224

SPARKSQL使用MYSQL做METADATA

将hive-site.xml拷贝到$SPARK_HOME/conf中配置如hive使用mysql一样，注意赋予相应的权限。javax.jdo.option.ConnectionURLjdbc:mysql://xxxx:3306/sparkmetadata?createDatabaseIfNotExist=true启动spark-sql要给driver路径spark-sql --driver-class-path /usr/local/spark/spa..

分类：数据库时间：2015-06-23 18:12:40 阅读次数：174

sparksql 提交到yarn出现 java.lang.NoClassDefFoundError: Lorg/apache/hadoop/hive/ql/plan/TableDesc

出现这个问题，是因为spark的excutor执行的时候，缺少hive的依赖包，添加依赖包的参数是：--conf "spark.executor.extraClassPath=/opt/cloudera/parcels/CDH-5.3.1-1.cdh5.3.1.p0.5/lib/hive/lib/*...

分类：数据库时间：2015-06-23 13:30:45 阅读次数：337

cdh5.3中配置sparksql

在cdh5.3中的spark，已经包含了sparksql，只需要做以下几步配置，就可以在使用该功能1）确保hive的cli和jdbc都可以正常工作2）把hive-site.xml 复制到 SPARK_HOME/conf目录下3）将hive的类库添加到spark classpath中：编辑SPARK_...

分类：数据库时间：2015-06-19 01:25:51 阅读次数：425

基于Spark Mllib，SparkSQL的电影推荐系统

本文测试的Spark版本是1.3.1本文将在Spark集群上搭建一个简单的小型的电影推荐系统，以为之后的完整项目做铺垫和知识积累整个系统的工作流程描述如下： 1.某电影网站拥有可观的电影资源和用户数，通过各个用户对各个电影的评分，汇总得到了海量的用户-电影-评分数据 2.我在一个电影网站上看了几部电影，并都为其做了评分操作（0-5分） 3.该电影网站的推荐系统根据我对那几部电影的评分，要预测出...

分类：数据库时间：2015-05-27 22:56:56 阅读次数：377

Spark（九） -- SparkSQL API编程

Text文本文件测试一个简单的person.txt文件内容为：JChubby,13 Looky,14 LL,15 分别是Name和Age在Idea中新建Object，原始代码如下：object TextFile{ def main(args:Array[String]){ } }SparkSQL编程模型：第一步：需要一个SQLContext对象，该对象是SparkSQL操作的入口...

分类：数据库时间：2015-05-25 10:03:28 阅读次数：216

Shark与SparkSQL

首先介绍一下Shark的概念 Shark简单的说就是Spark上的Hive，其底层依赖于Hive引擎的但是在Spark平台上，Shark的解析速度是Hive的几多倍它就是Hive在Spark上的体现，并且是升级版，一个强大的数据仓库，并且是兼容Hive语法的下面给出一张来自网上的Shark构架图从图上可以看出，Spark的最底层大部分还是基于HDFS的，Shark中的数据信息等也是对应着H...

分类：数据库时间：2015-05-15 09:11:25 阅读次数：314

SparkSQL 初步应用（HiveContext使用）

折腾了一天，终于解决了上节中result3的错误。至于为什么会产生这个错误，这里，先卖个关子，先看看这个问题是如何发现的：首先，找到了这篇文章：http://apache-spark-user-list.1001560.n3.nabble.com/SparkSQL-select-syntax-td16299.html里面有这么一段：Theissueisthatyou..

分类：数据库时间：2015-04-17 22:29:05 阅读次数：704

共306条上一页 1 ... 25 26 27 28 29 ... 31 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)