折腾了一天,终于解决了上节中result3的错误。至于为什么会产生这个错误,这里,先卖个关子,先看看这个问题是如何发现的:首先,找到了这篇文章:http://apache-spark-user-list.1001560.n3.nabble.com/SparkSQL-select-syntax-td16299.html里面有这么一段:Theissueisthatyou..
分类:
数据库 时间:
2015-04-17 22:29:05
阅读次数:
704
清明假期折腾了两天,总结了两种方式使用IDE进行spark程序,记录一下:第一种方法比较简单,两种方式都是采用SBT进行编译的。注意:本地不需要安装Scala程序,否则在编译程序时有版本兼容性问题。一、基于Non-SBT方式创建一个ScalaIDEA工程我们使用Non-SBT的方式,点击“Next”..
引言
通过Java编写Spark应用程序的HelloWorld,虽然有点寒碜,没用Scala简洁明了,但还是得尝试和记录下。
环境
Windows7
Eclipse+Maven
Jdk1.7
Ubuntu 14.04
步骤一:在eclipse中创建maven工程,过程很简单,不详述。
pom文件为:
project xm...
分类:
编程语言 时间:
2015-04-17 18:08:58
阅读次数:
194
Spark SQL的优化器Catalyst是易于扩展的。它同时支持基于规则(rule-based)和基于代价(cost-based)的优化方法。在它内部,Catalyst包含了一个表示树和操作树的规则的通用库。在此框架下,目前实现了针对关系查询处理(如,表达式,逻辑查询计划)的库,和在处理查询执行不同阶段(分析,逻辑优化,物理优化,代码生成)的一些规则。Tree在Catalyst主要的数据类型就是由...
分类:
其他好文 时间:
2015-04-17 11:18:59
阅读次数:
206
许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。Apache Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(ma...
分类:
其他好文 时间:
2015-04-17 07:05:30
阅读次数:
152
本博文程序是读取hadoop的hdfs中的文件,使用正则化解析出规定格式的数据,然后加载到sparkSQL数据库中。
正则化如果不太了解,请看正则表达式30分钟入门教程
package com.spark.firstApp
import org.apache.spark.SparkContext
import org.apache.spark._
import org.apache.lo...
分类:
数据库 时间:
2015-04-16 15:47:50
阅读次数:
243
Hdfs环境搭建
下载最新版本的Hadoop编译好的tar包:http://hadoop.apache.org/releases.html确认HDFS namenode和datanode的角色,并将namenode以及datanode的ip机器名对应关系写进每台机器的/etc/hosts文件。
确认namenode可以不需要密码就一个通过ssh联通datanode结点。
执行如下...
分类:
其他好文 时间:
2015-04-15 21:33:56
阅读次数:
152
引言
由于工作需要,即将拥抱Spark,曾经进行过相关知识的学习,现在计划详细读一遍最新版本Spark1.3的部分官方文档,一是复习,二是了解最新进展,三是为公司团队培训做储备。
欢迎转载,请注明出处:
原文URL:http://spark.apache.org/docs/latest/submitting-applications.html
该...
分类:
移动开发 时间:
2015-04-15 19:39:19
阅读次数:
278
今天在java 上运行spark查询的时候出现一个问题:java.lang.NoSuchMethodError: com.google.common.hash.HashFunction.hashInt(I)Lcom/google/common/hash/HashCode;后google 了一下找到了...
分类:
编程语言 时间:
2015-04-15 16:41:37
阅读次数:
248