码迷,mamicode.com
首页 >  
搜索关键字:spark 安装、介绍    ( 7164个结果
Hadoop Spark 集群简便安装总结
Hadoop 安装简单说就是:ssh、配JAVA_HOME / HADOOP_HOME等profile参数、配 数据存放目录 / MR要用yarn 及 master是谁 。 本文还提供涉及到的文件下载。...
分类:其他好文   时间:2015-07-05 09:34:59    阅读次数:112
运行spark-shell时遇到的主机地址的错误
下载了spark 1.4,运行spark-shell时遇到以下错误: java.net.UnknownHostException: UKON-M-Q0EP: UKON-M-Q0EP: nodename nor servname provided, or not known at java.net.InetAddress.getLocalHost(InetAddress.java:1...
分类:系统相关   时间:2015-07-04 09:39:28    阅读次数:242
Spark:一个高效的分布式计算系统
http://tech.uc.cn/?p=2116概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于M...
分类:其他好文   时间:2015-07-02 17:24:03    阅读次数:135
流式大数据处理的三种框架:Storm,Spark和Samza
许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master...
分类:其他好文   时间:2015-07-02 15:29:02    阅读次数:149
spark 笔记
分布式计算,数据尽量在本地计算,减少网络I/O如果操作之间相互关系不大,则尽量采用分布式计算。spark采用分布式计算中的master-slave模型,master对应含有master进程的节点,slave对应含有worker进程的节点。Client 负责提交应用,driver负责控制应用的执行。基...
分类:其他好文   时间:2015-07-01 23:28:09    阅读次数:196
Spark的序列化
spark的序列化主要使用了hadoop的writable和java的Serializable。说到底就是使用hadoop的writable替换了java的默认序列化实现方式。class SerializableWritable[T <: Writable](@transient var t: T)...
分类:其他好文   时间:2015-07-01 20:13:06    阅读次数:353
datagrid 编辑
spark:DataGrid编辑状态进入需要在选中一行高亮状态之后,再次点击该单元格,这样,相信非常符合开发人员的控制手法及大众使用习惯,这,是一点非常好的改良。同时,它取缔了itemEditEnd以及itemFocusOut这样的事件,采用下面四个事件来控制Grid Editor的编辑状态:gri...
分类:其他好文   时间:2015-06-30 21:51:10    阅读次数:117
PageRank在Hadoop和spark下的实现以及对比
关于PageRank的地位,不必多说。主要思想:对于每个网页,用户都有可能点击网页上的某个链接,例如A:B,C,DB:A,DC:AD:B,C由这个我们可以得到网页的转移矩阵 A B C DA 0 1/2 1 0B 1/3 0 0 0C 1/3 1/2 0 0D 1/3 0 0...
分类:其他好文   时间:2015-06-30 21:50:52    阅读次数:148
Spark 的combineByKey函数
在Spark中有许多聚类操作是基于combineByKey的,例如group那个家族的操作等。所以combineByKey这个函数也是比较重要,所以下午花了点时间看来下这个函数。也参考了http://www.tuicool.com/articles/miueaqv这篇博客。先看下combineByK...
分类:其他好文   时间:2015-06-29 19:35:23    阅读次数:120
spark、storm与Hadoop
1. Storm是什么,怎么做,如何做的更好?Storm是一个开源的分布式实时计算系统,它可以简单、可靠地处理大量的数据流。Storm有很多应用场景,如实时分析、在线机器学习、持续计算、分布式RPC、ETL,等等。Storm支持水平扩展,具有高容错性,保证每个消息都会得到处理,而且处理速度很快(在一...
分类:其他好文   时间:2015-06-28 21:25:04    阅读次数:233
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!