码迷,mamicode.com
首页 >  
搜索关键字:spark 安装、介绍    ( 7164个结果
Spark Programming Guide 中文版
Spark Guide Programming Guide 中文翻译 ,Git地址:https://github.com/ChenZhongPu/SparkGuideGitBook GitBook 地址:http://chenzhongpu.gitbooks.io/sparkguide/...
分类:其他好文   时间:2015-03-04 14:43:53    阅读次数:160
倒排索引
1.实例描述输入为一批文件,文件内容格式如下:Id1TheSpark……Id2TheHadoop……输出如下:(单词,文档ID合并字符串)TheId1Id2HadoopId2……2.设计思路先读取所有文件,数据项为(文档ID,文档词集合)的RDD,然后将数据映射为(词,文档ID)的RDD,去重,最后在reduceByKey阶..
分类:其他好文   时间:2015-03-04 11:21:07    阅读次数:161
整合Kafka到Spark Streaming——代码示例和挑战
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间,...
分类:其他好文   时间:2015-03-03 16:51:30    阅读次数:209
整合Kafka到Spark Streaming——代码示例和挑战
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.2版...
分类:其他好文   时间:2015-03-03 15:11:59    阅读次数:269
spark SQL编程动手实战-01
首先创建SparkContext上下文: 接着引入隐身转换,用于把RDD转成SchemaRDD: 接下来定义一个case class 来用于描述和存储SQL表中的每一行数据: 接下来要加载数据,这里的测试数据是user.txt文件: 我们创建好use...
分类:数据库   时间:2015-03-02 19:26:20    阅读次数:264
spark SQL编程动手实战-01
首先创建SparkContext上下文: 接着引入隐身转换,用于把RDD转成SchemaRDD: 接下来定义一个case class 来用于描述和存储SQL表中的每一行数据: 接下来要加载数据,这里的测试数据是user.txt文件: 我们创建好use.txt增加内容并上传到hdfs中: web控制台查询: hdfs命令查询: 加...
分类:数据库   时间:2015-03-02 19:08:17    阅读次数:222
[Flex] 组件Tree系列 —— 支持CheckBox组件
主程序mxml: 1 2 3 4 5 8 9 10 11 12 13 @namespace s "library://ns.adobe.com/flex/spark"; 14 @...
分类:其他好文   时间:2015-03-02 16:38:43    阅读次数:121
在已经安装好spark的docker镜像里安装cassandra2.0.7
1. 通过docker run命令的-v/–volume参数拷贝 apache-cassandra-2.0.7-bin.tar.gz到docker容器[root@master ~]# docker run -v /data:/mnt -i -t -P -h sandbox sequenceiq/spark:1.2.0 /etc/bootstrap.sh -bash / Starting sshd:...
分类:其他好文   时间:2015-03-02 13:10:29    阅读次数:583
spark出现task不能序列化错误的解决方法 org.apache.spark.SparkException: Task not serializable
出现“task not serializable"这个错误,一般是因为在map、filter等的参数使用了外部的变量,但是这个变量不能序列化。特别是当引用了某个类(经常是当前类)的成员函数或变量时,会导致这个类的所有成员(整个类)都需要支持序列化。解决这个问题最常用的方法有:如果可以,将依赖的变量放...
分类:Web程序   时间:2015-02-28 12:52:40    阅读次数:153
Spark安全威胁及建模方法
本文主要通过官方文档、相关论文、业界公司和产品三个方面来论述Spark安全威胁及其建模方法,详细内容如下。 第1章 官方文档[1] 目前Spark支持共享密码的认证方式。可以通过设置spark.authenticate这个参数实现,这个参数控制Spark的通信协议是否用共享的密码进行验证。这个认证协议是一个基础的握手协议,通过令通信双方具有相同共享密码保证其之间能够直接通信。如果共享的密码不相同,那么他们将不会被允许通信。共享密码通过如下方式生成: ? 对于Spark在yarn上...
分类:其他好文   时间:2015-02-28 08:54:49    阅读次数:280
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!