码迷,mamicode.com
首页 >  
搜索关键字:spark streaming exactly-once    ( 7640个结果
Spark学习体系
底理解Spark,能够分为以下几个层次。1 Spark基础篇 1.1 Spark生态和安装部署 在安装过程中,理解其基本操作步骤。 安装部署 Spark安装简单介绍 Spark的源代码编译 Spark Standalone安装 Spark Standalone HA安装 ...
分类:其他好文   时间:2014-08-11 14:38:42    阅读次数:247
使用Tomcat实现基于iframe streaming的Comet聊天室
这是一个基于Comet实现的聊天室Demo,功能类似于QQ群聊。聊天过程中如果有新想消息,那么就需要服务器推送消息到浏览器,所以这里可以使用Comet技术。 Comet一般有两种实现方式:长轮询(long-polling)、流(streaming)。而本文中的这个Demo的实现方式是基于流(streaming),前端使用了一个隐藏的iframe,这也是比较常用的一种方式。不过由于使用iframe流,导致浏览器上面的进度一直在转,这是因为iframe一直在加载的原因,先不要在意这些细节。 Tomcat提供了C...
分类:其他好文   时间:2014-08-11 10:09:52    阅读次数:213
Python基础篇(七)
加上两个下划线变量或者方法变为私有。 >>> class Bird: ... __song = "spark" ... def sing(self): ... return self.__song ... >>> b = Bird() >>> b.sing() 'spark' ...
分类:编程语言   时间:2014-08-10 18:12:40    阅读次数:284
Spark&Spark性能调优实战
Spark特别适用于多次操作特定的数据,分mem-only和mem & disk。其中mem-only:效率高,但占用大量的内存,成本很高;mem & disk:内存用完后,会自动向磁盘迁移,解决了内存不足的问题,却带来了数据的置换的消费。Spark常见的调优工具有nman、Jmeter和Jprofile,以下是Spark调优的一个实例分析: 1、场景:精确客户群 对一个容量为300g的客...
分类:其他好文   时间:2014-08-09 23:19:39    阅读次数:301
Jackson 概述
原文地址 本文内容 JSON 的三种方式 示例 Full Data Binding (POJO) 示例 "Raw" Data Binding 示例 用泛型数据绑定 Tree Model 示例 Streaming API 示例 Streaming API 示例 2: 数组 ...
分类:其他好文   时间:2014-08-08 01:30:45    阅读次数:400
Hive Python Streaming的原理及写法
在Hive中,需要实现Hive中的函数无法实现的功能时,就可以用Streaming来实现。其原理可以理解成:用HQL语句之外的语言,如Python、Shell来实现这些功能,同时配合HQL语句,以实现特殊的功能。 比如,我有一张不同网站访问的日志表,其中有两个列是url和ref,分别代表当前访问的网址和来源地址,我想要查看用户的来源,即看用户都是从那些网站跳到这些网站上去的,这里有些网站可能域名...
分类:编程语言   时间:2014-08-07 23:21:44    阅读次数:448
【开源夏令营优秀开题报告】专题之三-云与大数据合集
5个提案的14个开题报告,涉及数据可视化实践、社交云电视模型、Spark上流式机器学习算法实现、基于云存储的Linux系统增强服务和网络拓扑距离的高效KNN查询。...
分类:其他好文   时间:2014-08-07 18:58:10    阅读次数:306
PC端 Spark 二次开发 自动接收好友请求并同意
Spark IM即时通讯二次开发...
分类:其他好文   时间:2014-08-07 15:46:10    阅读次数:225
spark读写压缩文件API使用详解
最近研究了下Spark如何读写压缩格式的文件,主要有如下三种方式,这里以lzo方式压缩为例/*******************oldhadoopapi*************************/ valconfHadoop=newJobConf confHadoop.set("mapred.output.compress","true") confHadoop.set("mapred.output.compression.c..
分类:Windows程序   时间:2014-08-07 07:32:40    阅读次数:417
【系列】Matei Zaharia(马铁)博士论文-2 引言
由于单台机器的计算能力和I/O能力已经无法满足不断增长的数据处理需求,越来越多的组织需要将应用扩展到更大规模的集群上。但在集群环境中,可编程性方面将遇到以下几个挑战: 并行编程问题;为了将应用并行化,需要并行编程模型的支撑。 容错和慢节点问题;当集群规模相当大时,这个问题也是非常严重的。 多用户共享集群要求能具备弹性计算的能力,此外还要考虑干扰问题。 结果就是出现了很多编程模型,首先是MapReduce使数据批处理变得简单通用同时能处理容错。但很难处理其它类型的负载,于是就出现了各种各样专用的编程模型: ...
分类:其他好文   时间:2014-08-06 19:28:12    阅读次数:285
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!