Scrapy使用了Twisted异步网络库来处理网络通讯。整体架构大致如下(注:图片来自互联网)Scrapy主要包括了以下组件:引擎,用来处理整个系统的数据流处理,触发事务。调度器,用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回。下载器,用于下载网页内容,并将网页内容返回给蜘蛛。蜘...
分类:
其他好文 时间:
2015-06-29 22:11:33
阅读次数:
175
Spark简述Spark发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足
于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式。
特点:
1、轻
Spark 0.6核心代码有2万行,Hadoop1.0为9万行,2.0为22万行。2、快
Spark对小数据集能达到亚秒级的廷迟,这对于Hadoop MapReduce是无法想象的(由于”心跳”间隔机制,...
分类:
其他好文 时间:
2015-06-24 21:03:48
阅读次数:
412
流:CUDA流很像CPU的线程,一个CUDA流中的操作按顺序进行,粗粒度管理多个处理单元的并发执行。 通俗的讲,流用于并行运算,比如处理同一副图,你用一个流处理左边半张图片,再用第二个流处理右边半张图片,这两个流中的代码同时执行,加快了处理速度。事件:记录CUDA事件是CUDA流中应用程序跟踪...
分类:
其他好文 时间:
2015-06-22 19:18:01
阅读次数:
392
用HAProxy和KeepAlived构建高可用的反向代理用HAProxy和KeepAlived构建高可用的反向代理 前言对于访问量较大的网站来说,随着流量的增加单台服务器已经无法处理所有的请求,这时候需要多台服务器对大量的请求进行分流处理,即负载均衡。而如果实 现负载均衡,必须在网站的入口部署服务...
分类:
其他好文 时间:
2015-06-18 18:39:44
阅读次数:
263
一、什么是限流使资源以限定的速率被使用。比如:地铁限流,高峰时段限制单位时间内的客流量;电路中的限流器,可以保证电路不超过额定的电流;网站限流,抢购,瞬间的高峰对于后台来说肯定是需要一个限流处理为可接受的速率进行处理。二、为什么要限流比如:地铁不限流量,挤爆了;电路不限流,灯爆了;网站不限流,撑爆了...
分类:
其他好文 时间:
2015-06-10 00:55:04
阅读次数:
105
Storm风暴和Spark Streaming都是分布式流处理的开源框架。区别如下:
1、处理延时和吞吐量
Storm处理的是每次传入的一个事件,Spark Streaming是处理某个时间段窗口内的事件流,Storm处理一个事件可以达到秒内的延迟,而Spark Streaming则有几秒钟的延迟。因此,Spark Streaming比Storm的延时更长,但是吞吐量比Storm大。
...
分类:
其他好文 时间:
2015-06-08 23:25:42
阅读次数:
188
GraphLab介绍GraphLab 是由CMU(卡内基梅隆大学)的Select 实验室在2010 年提出的一个基于图像处理模型的开源图计算框架,框架使用C++语言开发实现。该框架是面向机器学习(ML)的流处理并行计算框架,可以运行在多处理机的单机系统、集群或是亚马逊的EC2 等多种环境下。框架的设计目标是,像MapReduce一样高度抽象,可以高效执行与机器学习相关的、具有稀疏的计算依赖特性的迭代...
分类:
其他好文 时间:
2015-06-08 21:35:42
阅读次数:
461
本文是对Heron架构做了一下阅读笔记,讲解Heron在现有的Storm架构上做了哪些优化,这些优化能够解决Storm现在的哪些问题。...
分类:
其他好文 时间:
2015-06-05 19:49:10
阅读次数:
204
FileInputStream类1)FileInputStream类介绍:以字节为单位的流处理。字节序列:二进制数据。与编码无关,不存在乱码问题。FileInputStream类的主要方法有:Read(),read(byte[]b),read(byte[],intoff,intlen),availa...
分类:
其他好文 时间:
2015-06-04 20:48:57
阅读次数:
173
Twitter Heron 论文笔记,简单介绍论文前半部分对storm局限性,从Storm worker、Nimbus以及资源分配这些来阐述目前Storm存在的问题。...
分类:
其他好文 时间:
2015-06-03 19:41:48
阅读次数:
147