问题描述如果你在Spark SQL上试图调用在HIVE注册的自定义函数(UDF)时,你可能会遇到这样的错误:Spark SQL: Error in query: undefined function xxxxxx这个问题发生在Spark 1.5.0, 1.5.1和1.5.2版本上,对此Spark官方有一个专门的bug report: https://issues.apache.org/jira/br...
分类:
数据库 时间:
2016-02-26 14:17:19
阅读次数:
308
如果你的Spark程序在执行过程中报出如下类似的错误:ERROR Executor: Exception in task xxx in stage xxx
java.lang.OutOfMemoryError: unable to create new native thread
那么可能性非常大的原因是你当前通过spark-submit或spark-sql启动的程序中开启了过多的进程,以至超过了操...
分类:
编程语言 时间:
2016-02-20 17:40:54
阅读次数:
174
作者:周志湖1. 获取数据本文通过将github上的Spark项目git日志作为数据,对SparkSQL的内容进行详细介绍
数据获取命令如下:[root@master spark]# git log --pretty=format:'{"commit":"%H","author":"%an","author_email":"%ae","date":"%ad","message":"%f"}' >...
分类:
数据库 时间:
2016-02-06 10:27:16
阅读次数:
340
https://spark.apache.org/docs/1.5.1/api/java/org/apache/spark/sql/DataFrame.html people.filter("age > 30") .join(department, people("deptId") === depa
分类:
数据库 时间:
2016-01-28 18:45:26
阅读次数:
413
1、设置Shuffle过程中的并行度:spark.sql.shuffle.partitions(SQLContext.setConf())2、在Hive数据仓库建设过程中,合理设置数据类型,比如能设置为INT的,就不要设置为BIGINT。减少数据类型导致的不必要的内存开销。3、编写SQL时,尽量给出...
分类:
数据库 时间:
2016-01-14 06:15:31
阅读次数:
230
1. Spark定义 构建与计算集群之上支持大数据集的快速的通用的处理引擎a)快速: DAG、Memoryb)通用:集成Spark SQL、Streaming、Graphic、R、Batch Processc)运行方式:StandAloneYARNMesosAWSd)数据来源:Hdfs Hbase ...
分类:
其他好文 时间:
2016-01-10 10:24:43
阅读次数:
124
1.整体运行流程使用下列代码对SparkSQL流程进行分析,让大家明白LogicalPlan的几种状态,理解SparkSQL整体执行流程// sc is an existing SparkContext.
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
// this is used to implicitly convert an...
分类:
数据库 时间:
2015-12-31 12:53:47
阅读次数:
970
想使用spark sql cli 直接读取hive中表来做分析的话只需要简答的几部设置就可以了1.拷贝hive-site.xml 至spark confcd /usr/local/hive/conf/hive-site.xml /usr/local/spark-1.5.1/conf/2.配置spar...
分类:
数据库 时间:
2015-12-28 15:48:25
阅读次数:
306
package main.asiainfo.coc.sparksqlimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}case class Record(key: Int, v...
分类:
其他好文 时间:
2015-12-13 16:55:31
阅读次数:
92
1、spark sql可以直接加载avro文件,之后再进行一系列的操作,示例: 1 SparkConf sparkConf = new SparkConf().setAppName("Spark job"); 2 JavaSparkContext javaSpar...
分类:
数据库 时间:
2015-12-03 13:16:40
阅读次数:
158