码迷,mamicode.com
首页 >  
搜索关键字:guozhongcrawler 爬虫    ( 10454个结果
利用bloom filter算法处理大规模数据过滤
Bloom Filter是由Bloom在1970年提出的一种快速查找算法,通过多个hash算法来共同判断某个元素是否在某个集合内。可以用于网络爬虫的url重复过滤、垃圾邮件的过滤等等。 它相比hash容器的一个优势就是,不需要存储元素的实际数据到容器中去来一个个的比较是否存在。 只需要对应的位段来标记是否存在就行了,所以想当节省内存,特别适合海量的数据处理。并且由于省去了存储元素和比较...
分类:其他好文   时间:2014-08-18 18:37:02    阅读次数:339
Storm【实践系列-如何写一个爬虫】 - ParserBolt
阅读背景: 如果您对爬虫,或则web前端不够了解,请自行google。 代码前提:您需要参阅本ID 所写的前面两篇博文:? Storm【实践系列-如何写一个爬虫】 - Fetcher 本章主题: ParserBolt 如何完成的解析,并且如何...
分类:其他好文   时间:2014-08-18 16:37:42    阅读次数:376
python写的简单有效的爬虫代码
python写的简单有效的爬虫代码...
分类:编程语言   时间:2014-08-18 16:28:52    阅读次数:167
乌云漏洞爬虫的数据库版本(mysql)
特别鸣谢阮思绮同学!虽然感觉这个冷冷的博客也没人看23333import mysql.connectorimport sys, osimport urllib.requestimport reimport itertoolsuser = 'root'pwd = ''host = '127.0.0.....
分类:数据库   时间:2014-08-18 11:59:44    阅读次数:352
爬虫任务调度
背景介绍 爬虫系统:一台是control server,其他的100台做crawler。server每天定时分发采集任务。 问题出现:由于目标采集任务比较大,准备增加10台crawler。期望在不改变原有任务分配规 则的基础上,同时优先分配任务少的机器上,而且能够对任务较少的机器进行平均分配(...
分类:其他好文   时间:2014-08-17 02:18:31    阅读次数:258
反思自己一年前做数据采集的经过——网络爬虫
以前没有写过,这是第一次写,用词不当,表述不清楚的地方请见谅。希望大家多提建议,谢谢。网络爬虫常常被人所忽略,特别是和搜索引擎的光环相比,它似乎有些暗淡无光。我很少看见有详细介绍爬虫实现的文章或者文档。然而,爬虫其实是非常重要的一个系统,特别是在今天这个数据为王的时代。如果你是一个刚刚开始的公司或者...
分类:其他好文   时间:2014-08-17 02:17:01    阅读次数:506
nginx 日志过滤网络爬虫访问日志
nginx里面有很多的爬虫日志,会影响到后期的数据分析,所以一般会去掉。nginx排除配置:location/{ #去掉爬虫Start if($http_user_agent~*"bot|spider"){ access_logoff; } #去掉爬虫end proxy_passhttp://cdel_jxjy; ...... }如果特别想要爬虫日志,也可以讲爬虫日志放到指定..
分类:其他好文   时间:2014-08-15 10:51:29    阅读次数:299
抓取MM图片的爬虫
刚学python,试着写了个非常简单的爬虫,爬一些MM的鲍照下来。记录一下#coding=utf-8import urllib,timeimport reglobal xx=0def getHtml(url): page = urllib.urlopen(url) html = page...
分类:其他好文   时间:2014-08-12 18:52:14    阅读次数:257
Python中的字符编码问题
初学Python,本身就在一些语句处有些迷惑,如 a = u'你好',不知加上这个Unicode参数有何作用。一直到做爬虫抓取新闻时,在cmd的输出上总是出现错误。经过检索相关知识后,对一些编码问题做个小总结,其中参杂个人猜测,难免会有错误,以后再慢慢修改了。 1.一定要声明#coding=X...
分类:编程语言   时间:2014-08-12 18:28:44    阅读次数:203
正则表达式中的贪婪非贪婪
近几天在做几个爬虫,分析网页url的时候,抓取总是出现问题。后来了解到是贪婪和非贪婪模式的问题。记录一下本是想在一个html中抓取大量这种模式的href连接xxxxx写的正则表达式为reg = r''经过Regulator分析后,下面语句也匹配了出来href="http://www.xxx.info...
分类:其他好文   时间:2014-08-12 13:25:54    阅读次数:214
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!