Spark SQL支持两种RDDs转换为DataFrames的方式 使用反射获取RDD内的Schema 当已知类的Schema的时候,使用这种基于反射的方法会让代码更加简洁而且效果也很好。 通过编程接口指定Schema 通过Spark SQL的接口创建RDD的Schema,这种方式会让代码比较冗长。 ...
分类:
数据库 时间:
2017-03-25 00:46:06
阅读次数:
341
1.hive 与sparkSql比较 2.使用的语言 3.使用的框架 4.描述 ...
分类:
数据库 时间:
2017-03-13 19:18:56
阅读次数:
180
YDB介绍什么是延云YDB基于spark排序的一种更廉价的实现方案-附基于spark的性能测试大索引技术大数据的未来YDB技术原理YDB技术原理那些年我们在sparkSQL上踩过的坑YDB跟SolrCloud、ElasticSearch区别YDB安装部署YDB依赖的硬件环境详解YDB依赖的操作系统环境详解YDB依赖的软件环..
分类:
数据库 时间:
2017-03-13 00:18:58
阅读次数:
183
准备条件:部署hadoop集群部署spark集群安装python(本人安装的是anaconda3,python是3.6)配置环境环境变量:vi.bashrc#添加如下内容
exportSPARK_HOME=/opt/spark/current
exportPYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.10.4-src.zipps:spark里面会自..
分类:
数据库 时间:
2017-03-10 19:26:13
阅读次数:
1637
Spark机器学习Pipelines中的主要概念MLlib提供的API可以通过Pipelines将多个复杂的机器学习算法结合成单个pipeline或者单个工作流。这个概念和scikit-learn里的概念类似,根据官方的说法是,此抽象概念的设计灵感来自于scikit-learn。·DataFrame:通过SparkSQL组件里的DataFram..
分类:
其他好文 时间:
2017-03-08 01:27:33
阅读次数:
326
一、前言 近期在做Oracle迁移到Spark平台的项目上遇到了一些平台公式翻译为SparkSQL(on Hive)的需求,而Spark采用亲妈语言Scala进行开发。分析过大概需求过后,拟使用编译原理中的EBNF范式模式,进行基于词法的文法解析。于是拟采用传统的正则词法解析到EBNF文法解析的套路... ...
分类:
其他好文 时间:
2017-03-07 23:08:55
阅读次数:
304
测试数据 sparkStu.text zhangxs 24 chenxy wangYr 21 teacher wangx 26 teacher sparksql { "name":"zhangxs","age":24,"job":"chengxy", "name":"li","age":21,"jo ...
分类:
数据库 时间:
2017-03-07 08:25:37
阅读次数:
298
终端错误提示: 打开scalastyle-output.xml文件后,发现错误全是由scalastyle引起的,类似: 对于这种问题的解决,是打开pom.xml,找到scalastyle标签,将配置标签下的true都改为false <plugin><groupId>org.scalastyle</g ...
分类:
其他好文 时间:
2017-02-25 21:41:08
阅读次数:
520
下面给大家介绍怎么理解impala,impala工作原理是什么。 Impala是hadoop上交互式MPP SQL引擎, 也是目前性能最好的开源SQL-on-hadoop方案。 如下图所示, impala性能超过SparkSQL、 Presto、 Hive。 impala与hadoop生态结合紧密 ...
分类:
其他好文 时间:
2017-02-12 11:03:07
阅读次数:
3110