bloomFilter是70年代提出来的一个利用时间,错误率来换取空间的应用。应用在大数据量的情况下,比如爬虫抓取的大量url,用来判断哪些url是已经爬取过的。m =>使用的散列长度,这个值通常用来创建BitSet的长度,java.util.BitSetn =>待散列的字符串的个数。k =>使用的...
分类:
其他好文 时间:
2014-08-28 12:52:49
阅读次数:
159
最近实验室项目涉及到很多爬虫相关的东西,在此做个整理,爬虫最难的问题应该是javascript和ajax的处理。现在很多网站使用大量ajax,普通爬虫无法获取js生成的内容。 对于普通的静态网页,HttpClient是Java中抓取网页的利器,然而针对像京东商品页面这样的页面却无能为力,例如:htt...
分类:
编程语言 时间:
2014-08-27 18:05:08
阅读次数:
1308
file_get_contents 和 curl 这俩强悍的函数,在远程抓取时候相当有用处.不过一些网站会根据来访ip是否携带user_agent来判断是正常的浏览器客户端还是机器.所以,我们的任务就是给他们伪造user_agent. file_get_cont...
分类:
其他好文 时间:
2014-08-26 20:02:26
阅读次数:
189
1、抓取包含10.10.10.122的数据包#tcpdump-ieth0-vnnhost10.10.10.1222、抓取包含10.10.10.0/24网段的数据包#tcpdump-ieth0-vnnnet10.10.10.0/243、抓取包含端口22的数据包#tcpdump-ieth0-vnnport224、抓取udp协议的数据包#tcpdump-ieth0-vnnudp5、抓取icmp协议的数据包#tcpdum..
分类:
其他好文 时间:
2014-08-26 19:52:37
阅读次数:
275
#-*- coding: utf-8 -*-import urllib2import urllibimport reimport timeimport MySQLdbimport time,datetime#from datetime import date#----------- APP stor...
分类:
移动开发 时间:
2014-08-26 19:30:36
阅读次数:
226
参考:http://www.zhxl.me/1409.html使用 python urllib2 抓取网页时出现乱码的解决方案发表回复这里记录的是一个门外汉解决使用 urllib2 抓取网页时遇到乱码、崩溃、求助、解决和涨经验的过程。这类问题,事后看来只是个极小极小的坑,不过竟然花去很多时间,也值得...
分类:
编程语言 时间:
2014-08-26 17:07:06
阅读次数:
284
1、最简单import urllib.requestresponse = urllib.request.urlopen('http://python.org/')html = response.read() 2、使用 Requestimport urllib.request req = urllib...
分类:
编程语言 时间:
2014-08-26 14:58:56
阅读次数:
348
项目地址:http://www.freeteam.cn/ FreeCMS商业版V2.1更新功能 1.web页面信息采集:通过简单配置即可抓取目标网页信息,支持增量式采集、关键字替换、定时采集,同一采集规则可采集多个页面(静态和动态),可采集...
分类:
编程语言 时间:
2014-08-26 09:59:56
阅读次数:
228
项目地址:http://www.freeteam.cn/
FreeCMS商业版V2.1更新功能
1.web页面信息采集:通过简单配置即可抓取目标网页信息,支持增量式采集、关键字替换、定时采集,同一采集规则可采集多个页面(静态和动态),可采集多种信息属性,可自动审核且静态化信息页面。
2.数据库信息采集:通过简单配置即可抓取目标数据库信息,支持增量式采集、关键字...
分类:
编程语言 时间:
2014-08-26 09:53:45
阅读次数:
205