码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
scrapy为不同网站设置不同的代理
在公司项目中,有一些爬虫中需要用的国内代理,有一些需要用到国外代理,有一些不用代理我测试了三个方案方案一:在settings.py中开启代理,然后在spider中重写DOWNLOADER_MIDDLEWARES,但重写无法生效方案二:让scrapy切换到不同的settings.py文件,这个手动切换是有效果的,..
分类:Web程序   时间:2014-09-01 15:48:54    阅读次数:251
Python实用工具包Scrapy安装教程
对于想用每个想用Python开发网络爬虫的开发者来说,Scrapy无疑是一个极好的开源工具。今天安装之后觉得Scrapy的安装确实不易啊。所以在此博文一篇,往后来着少走弯路。 废话不多说了,如果你还不知道Scrapy是何物,可登陆在其官网http://scrapy.org/一览究竟,在此不再赘述。 ...
分类:编程语言   时间:2014-09-01 15:21:13    阅读次数:405
负载均衡
负载均衡 (Load Balancing) 建立在现有网络结构之上,它提供了一种廉价有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可用性。 目录 1基本概述 2详细信息 ? 四个分类 ? 部署方式 ? 详细配置 3主要应用 4常见产品 ? F5 ? A10 ? 深信服 ...
分类:其他好文   时间:2014-09-01 14:07:13    阅读次数:548
利用bloom filter算法处理大规模数据过滤
Bloom Filter是由Bloom在1970年提出的一种快速查找算法,通过多个hash算法来共同判断某个元素是否在某个集合内。可以用于网络爬虫的url重复过滤、垃圾邮件的过滤等等。
分类:其他好文   时间:2014-09-01 14:01:23    阅读次数:238
python的小爬虫的基本写法
1.最基本的抓站import urllib2content = urllib2.urlopen('http://XXXX').read()-2.使用代理服务器这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等。import urllib2proxy_support = url...
分类:编程语言   时间:2014-09-01 12:07:13    阅读次数:210
Catel帮助手册-Catel.Core:(4)数据处理
1,概要 文档的这个部分都是关于Catel中数据处理方法的,一些部分是基于CodeProject上的文章的,但这个文档有更多的更新内容。 一件很重要的事情是许多开发者花费很多时间来处理对象的序列化,序列化是一个专业领域的知识,只有技术比较高深的人员才能很好地掌握对象的序列化处理(要考虑程序集的改变,...
分类:其他好文   时间:2014-08-31 22:51:02    阅读次数:366
Java NIO 读数据处理过程
这两天仿hadoop 写java RPC框架,使用PB作为序列号工具,在写读数据的时候遇到一个小坑。之前写过NIO代码,恰好是错误的代码产生正确的逻辑,误以为自己写对了。现在简单整理一下。使用NIO,select()到读事件时,要处理4种情况:1. channel还有数据,继续读。2. channe...
分类:编程语言   时间:2014-08-31 17:02:01    阅读次数:322
15个最受欢迎的Python开源框架
这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等。Django: Python Web应用开发框架Django 应该是最出名的Python框架,GAE甚至Erlang都有框架受它影响。Django是走大而全的方向,它最出名的是其全自动化的管理后台:只需要使用起ORM,做简单...
分类:编程语言   时间:2014-08-31 11:48:11    阅读次数:271
Java实现的基于模板的网页结构化信息精准抽取组件:HtmlExtractor
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件,本身并不包含爬虫功能,但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 ? HtmlExtractor是为大规模分布式环境设计的,采...
分类:编程语言   时间:2014-08-31 00:35:00    阅读次数:228
vb.net 破解
【文章标题】:初学者破解VB.NET简单加密教学【文章作者】:爱琴海【软件名称】:某数据处理程序【下载地址】:自己搜索下载【编写语言】:VB.NET【使用工具】:Reflector【作者声明】:只是感兴趣,没有其他目的。失误之处敬请诸位大侠赐教!---------------------------...
分类:Web程序   时间:2014-08-31 00:26:30    阅读次数:277
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!