最近看Spark的东西,由于之前没有接触过lambda函数表达式,所以搜了点资料,特地纪录在此Scala中的Lambda表达式在函数式编程中,函数是基本的构造块。Scala融合了java中的面向对象编程和函数式编程。在Scala中,一个lambda表达式是种叫做“函数”或者“函数文本”。Scal.....
分类:
其他好文 时间:
2015-02-06 10:52:27
阅读次数:
123
Hive (http://en.wikipedia.org/wiki/Apache_Hive )(非严格的原文顺序翻译) Apache Hive是一个构建在Hadoop上的数据仓库框架,它提供数据的概要信息、查询和分析功能。最早是Facebook开发的,现在也被像Netflix这样的公司使用。Ama...
分类:
数据库 时间:
2015-02-06 06:59:34
阅读次数:
283
【转载】Getting Started with Spark (in Python)
分类:
编程语言 时间:
2015-02-05 21:44:12
阅读次数:
296
Spark以及SparkR的安装(standalone模式)From :ssdutsu @ Inspur Companysuzhiyuan2006@gmail.com操作系统 CentOS 7Java 版本 JDK 1.7Spark安装过程请见PDF文件 Spark 1.0的安装配置文件网址:htt...
分类:
其他好文 时间:
2015-02-05 20:11:41
阅读次数:
285
BlockGenerator和RateLimiter其实很简单,但是它包含了几个很重要的属性配置的处理,所以记录一下。/** * Generates batches of objects received by a * [[org.apache.spark.streaming.receiver.Re...
分类:
其他好文 时间:
2015-02-05 20:03:14
阅读次数:
148
InputDStream的继承关系。他们都是使用InputDStream这个抽象类的接口进行操作的。特别注意ReceiverInputDStream这个类,大部分时候我们使用的是它作为扩展的基类,因为它才能(更容易)使接收数据的工作分散到各个worker上执行,更符合分布式计算的理念。所有的输入流都...
分类:
其他好文 时间:
2015-02-05 17:56:10
阅读次数:
205
通过Spark SQL External Data Sources JDBC实现将RDD的数据写入到MySQL数据库中。jdbc.scala重要API介绍:/** * Save this RDD to a JDBC database at `url` under the table name `ta...
分类:
数据库 时间:
2015-02-05 17:52:44
阅读次数:
1163
我们在hdfs的/data/join创建两个文件: 上传第一个文件名称为1.txt 内容第一列是日期,第二列uid(普通用户id) 上传第二个文件名称为2.txt 内容第一列是日期,第二列uid(普通用户id) 执行上传到hdfs: hdfs命令行查...
我们在hdfs的/data/join创建两个文件:
上传第一个文件名称为1.txt
内容第一列是日期,第二列uid(普通用户id)
上传第二个文件名称为2.txt
内容第一列是日期,第二列uid(普通用户id)
执行上传到hdfs:
hdfs命令行查询:
web控制台管理查询:
首先在命令行中设置日期格式:
然后声明...
对于spark streaming来说,receiver是数据的源头。spark streaming的框架上,将receiver替换spark-core的以磁盘为数据源的做法,但是数据源(如监听某个tcp链接)显然不是可靠且不知道数据什么时候准备好的,所以spark streaming使用shuff...
分类:
其他好文 时间:
2015-02-05 14:58:43
阅读次数:
184